Zero-Shot Off-Policy: Aprendizaje sin Entrenamiento Nueva técnica de aprendizaje off-policy con zero-shot adapta políticas óptimas sin reentrenamiento, usando sucesores y densidades estacionarias. Benchmark en ExoRL y OGBench. 2026-06-02 · 2 min